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摘要 : [目的 /意义 ] 以 汽车 论坛 例 , 提 出 一 种 针对 专业 社交 媒体 文本 的 主题 知识 元 抽取 方法 。[ 方 法 /过 
程 ] 首先 ,通过 LDA 模型 提取 出 汽车 论坛 中 文本 的 主题 ,并 进行 去 重 ,形成 主题 列表 ;其 次 ,基于 融合 主题 特征 
的 深度 学 习 模 型 T-LSTM 模型 构建 适 于 汽车 论坛 本 文 的 情感 分 析 模 型 ;然后 ,通过 计算 各 词汇 在 图 模型 Tex- 
tRank 中 的 重要 性 与 各 词汇 的 Word2Vec 主题 相似 度 ,抽取 情感 关键 词 与 关键 名 ,用 于 对 文本 主题 与 情感 倾向 的 
解释 与 补充 ;最 后 ,对 上 述 方法 进行 集成 ,输出 结构 化 的 主题 知识 元 。[ 结果 /结论 ] 实验 结果 中 ,抽取 得 到 的 主 
题 知 识 元 合格 率 达 到 69.1% ,表明 本 文 提出 的 主题 知识 元 抽取 方法 ,能 够 围绕 知识 主题 较为 准确 地 抽取 知识 


元 ,实现 知识 的 结构 化 转换 。 


二 关键 词 : 主题 知识 元 主题 抽取 ”长 短期 记忆 神经 网 络 ”情感 分 析 
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知识 元 ,又 称 为 知识 单元 .知识 元 组 ,是 用 于 操作 
利 管理 知识 的 知识 基 元 ,是 可 以 自由 切 分 .表达 、 存 取 、 
给 列 、 检 索 和 利用 知识 的 独立 的 知识 单位 和。 主题 知 
识 元 是 知识 元 的 一 种 表达 形式 ,知识 元 中 的 元 素 包含 
知 肖 主题 词 以 及 主题 相关 的 关键 信息 。 由 于 主题 词 能 
够 锯 确 反映 知识 元 之 间 的 各 种 隐 含 的 有 效 关联 ,如 等 
级 委 属 关系 .并 列 同一 关系 、 艇 类 关系 等 ,主题 知识 元 
是 较为 合适 的 知识 元 表达 方式 '""。 本 文 定义 专业 社交 
媒体 为 互联 网 用 户 用 于 分 享 和 交换 针对 某 一 专业 事物 


键 词 .主题 关键 名 ”的 主题 知识 元 。 

主题 知识 元 有 机 地 结合 了 知识 管理 和 现代 信息 技 
术 , 汲 取 了 知识 管理 中 隐 性 知识 分 类 、 知 识 提 人 炼 、 知 识 
应 用 等 思想 ,采用 大 数据 处 理 文本 挖掘 \ 机 需 学 习 等 
技术 ,在 众多 领域 拥有 较 高 的 应 用 价值 。 从 海量 文本 
中 抽取 主题 知识 元 ,实现 了 对 知识 内 容 本 身 的 检索 、 自 
由 操作 与 管理 ,同时 完成 了 知识 的 控制 单位 从 文档 到 
主题 知识 元 的 转变 ,提高 了 知识 检索 与 操作 的 效率 
与 灵活 性 。 利 用 主题 知识 元 中 主题 之 间 的 关联 度 ， 
能 够 实现 知识 的 重组 与 创造 ,以 及 对 知识 的 量化 与 
评价 “”。 此 外 ,在 专业 社交 媒 中 ,海量 的 用 户 评论 语 


的 意见 .见解 .经 验 和 观点 的 内 容 生产 与 交换 平台 。 专 
业 社 交 媒体 是 一 类 特殊 的 社交 媒体 ,其 一 般 形式 为 专 
业 论 坛 或 专业 社区 ,例如 “汽车 之 家 ”“ 小 米 社区 官方 
论坛 "“ 虎 扑 NBA 论坛 "等 , 相 比 其 他 社交 媒体 如 微 博 、 
脸 书 等 ,专业 社交 媒体 中 的 语 料 内 容 性 质 专 业 且 多 为 
长 文本 5 。 本 文 针对 专业 社交 媒体 语 料 数量 巨大 长 
短 不 一 .创作 随意 性 强 口语 化 的 特点 中 以 及 知识 操作 
与 管理 的 使 用 的 需求 ,提出 一 种 以 文本 标题 与 文本 内 
容 为 数据 源 .结构 为 “文本 主题 主题 情感 倾向 .主题 关 


料理 藏 着 丰富 的 用 户 创新 知识 。 实 现 从 专业 社交 媒 
体 语 料 到 主题 知识 元 的 抽取 ,能 够 提炼 海量 评论 语 
料 中 的 高 价值 信息 ,降低 知识 获取 的 难度 与 成 本 。 
专业 社交 媒体 主题 知识 元 中 的 情感 倾向 .关键 词 与 
关键 名 ,能够 为 当前 主题 热度 的 测度 与 监控 提供 数 
据 基 础 。 专 业 社 交 媒体 的 主题 知识 元 抽取 是 多 种 知 
识 管理 与 创新 活动 的 基础 ,企业 能 够 利用 主题 知识 
元 进行 客户 需求 挖掘 ,与 用 户 合作 开展 互动 创新 ; 政 
府 与 学 术 机 构 能 够 利用 主题 知识 元 开展 社交 与 情 的 
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传播 仿真 研究 ,梳理 社交 与 情 的 主题 脉络 ,监控 突 发 
与 情 主题 事件 ,为 制定 与 情 治理 措施 与 与 情调 控 策 
略 提供 依据 。 


2 相关 研究 
本 文 的 创新 点 包括 :中 由 于 主题 是 专业 社交 媒体 
文本 内 容 的 思想 核心 ,本文 针对 专业 社交 媒体 文本 , 设 
计 了 以 主题 为 中 心 的 知识 元 结构 ,包含 本 文 主题 .主题 


法 ,实现 了 对 产品 评论 语 料 中 的 产品 属性 抽取 ,进行 了 
基于 认 知 思维 模式 的 情感 分 析 , 形 成 了 结构 为 “产品 、 
产品 属性 情感 倾向 "的 知识 元 。 然 而 针对 微 博 等 短文 
本 语 料 的 知识 元 抽取 方法 无 法 适应 专业 社交 媒体 中 的 
长 文本 与 专业 性 词汇 ,本 文采 用 了 基于 深度 学 习 的 词 
诅 和 人 方法 支撑 主题 人 情感 与 关键 词句 的 抽取 ,更 好 地 适 
应 了 专业 社交 媒体 的 文本 特点 。Y. Yin 等 ”发 现 产品 
评论 和 其 它 附 加 信息 (如 用 户 信息 和 产品 信息 ) 对 使 


情感 与 主题 关键 词句 三 方面 信息 ;@ 针 对 专业 社交 
媒体 中 文本 用 户 评论 语 料 数量 巨大 .用 户 知 识 水 平 


用 神经 网 络 进行 情感 分 析 联 合 分 类 建 模 很 有 帮助 ， 
此 本 文 在 其 基础 上 ,将 文本 与 文本 主题 作为 特征 ,使 用 


参差 不 齐 ,文本 长 度 长 短 不 一 、 内 容 杂 靶 且 低 质 、 用 
词 专业 且 口 语 化 等 特点 ,本 文 提出 了 抽取 主题 知 
识 元 的 方法 与 技术 路 线 ,并 进行 了 实验 验证 ;@ 由 于 
等 业 社 交 媒 体 语 料 数据 量 庞大 , 需 保证 主题 知识 元 
抽 到 的 质量 与 速度 ,本 文 将 深度 学 习 技 术 引入 到 知 


(2 


误 泌 的 抽取 中 ,近年 来 深度 学 习 在 文本 挖掘 领域 应 


但 
人 = 


伴 工 保证 。 
思 在 知识 元 抽取 研究 领域 , 温 有 奎 等 ”对 知识 元 的 


内 从 进 行 了 定义 与 分 类 ,描述 并 实现 了 针对 文献 资源 
的 铀 到 方 案 , 其 知识 元 的 结构 包括 “类 型 名称. 内 容 ” 
于 全 元 素 。 然 而 该 知识 元 结构 单一 ,缺少 对 有 价值 信 
息 便 提炼 ,本 文 设计 了 囊括 主题 ,情感 与 关键 词句 的 知 
襄 和 结构, 不 仅 对 知识 内 容 进 行 了 抽取 ,同时 对 文本 包 
含 移 隐 性 知识 进行 了 提炼, 抽取 得 到 了 文本 的 主题 与 
情感 倾向 等 隐 性 知识 。 姜 永 常 “ 基于 知识 网 格 体系 
结 同 ,描述 了 从 文本 实体 层 到 语义 层 再 到 知识 单元 层 
的 转换 框架 ,从 理论 与 技术 层面 构建 了 知识 演化 框架 ， 
但 并 未 具体 实现 该 框架 。 本 文系 统 地 对 主题 知识 元 的 
抽取 方法 进行 了 描述 ,同时 通过 实验 检验 了 抽取 方法 
的 有 效 性 。 刘 森 等 ”提出 了 一 种 针对 文献 资源 的 基于 
主题 名 的 知识 元 抽取 方法 ,通过 计算 句子 之 间 的 相似 
度 , 实 现 了 句子 级 别 的 知识 元 抽取 。 然 而 主题 句 的 抽 
取 只 考虑 了 单 篇 文档 内 的 主题 ,本 文 在 抽取 主题 时 考 
虑 了 全 局 性 .文档 级 别 的 主题 元 素 ,减少 了 抽取 主题 的 
元 杂 度 。 

在 抽取 文本 类 别 方面 ,上 述 研究 的 主要 抽取 对 象 
均 为 学 术 文献 资源 ,学 术 文献 资源 一 般 拥 有 明确 的 主 
题 分 类 与 关键 词 ,抽取 知识 元 时 无 须 考虑 重复 抽取 主 
题 与 关键 词 ,本 文 针 对 专业 社交 媒体 文本 ,构建 了 主题 
与 主题 关键 词句 的 抽取 方法 。 杨 亮 中 针对 新 浪 微 博 中 
的 文本 ,提出 了 使 用 句子 内 信息 与 全 局 信息 融合 的 方 
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长 短 记忆 神经 网 络 (LSTM) 联 合 建 模 , 提 升 了 情感 分 析 
正确 率 0 


3 ”研究 方法 


3.1 研究 思路 与 框架 

本 文 对 主题 知识 元 的 定义 :在 专业 社交 媒体 语 料 
库 D 中 ,拥有 履 篇 文章 ,主题 知识 元 是 从 文章 m 的 
标题 h 与 内 容 c 中 抽取 到 的 结构 为 < 文本 主题 1, 主题 
情感 倾向 p, 关键 词 上 六， 关键 句 到 > 的 知识 元 , 即 u: 
(tp ,hk, ,hk,)o 

本 文 的 研究 思路 见 图 1。 具体 如 下 :中 从 专业 社 
交 媒 体 中 疏 取 用 户 评论 文本 ,构建 用 户 语料库 ;@ 运 用 
LDA 模型 进行 主题 抽取 ,并 合并 重复 主题 ,得 到 主题 模 
型 与 全 局 主题 列表 T, 该 LDA 模型 为 后 续 主 题 情感 分 
析 与 主题 关键 词句 的 抽取 提供 主题 基础 ;@ 利 用 LDA 
模型 对 帖子 主题 极 性 标注 ,同时 进行 情感 标注 ,构建 基 
于 TILSTM 的 情感 分 析 模 型 ,输出 情感 倾向 P; 由 基于 
TextRank 算法 与 Word2Vec 主题 词 相似 度 算法 ,计算 关 
键 词句 的 加 权重 要 度 ,从 而 实现 关键 词 所 与 关键 句 
的 抽取 ;@ 集 成 上 述 模型 ,训练 并 封装 主题 知识 元 xz 的 
抽取 方法 ,并 进行 实验 分 析 与 验证 。 
3.2 主题 抽取 模型 

本 文 首先 通过 训练 LAD 模型 ,在 专业 社交 媒体 的 
语料库 D 中 ,挖掘 出 合适 数量 的 主题 ,得 到 主题 列表 
7。LDA 主题 模型 能 够 抽取 得 到 专业 社交 媒体 语料库 
中 全 局 性 的 主题 列表 2, 将 每 篇 文档 单独 输入 LDA 模 
型 ,从 而 得 到 语料库 中 每 个 文档 所 对 应 的 主题 。 该 模 
型 为 面向 主题 的 情感 分 析 与 关键 词句 抽取 提供 了 主题 
基础 。 
3.2.1 构建 LDA 主题 抽取 模型 LDA 模型 的 主要 思 
想 是 找到 文档 在 主题 上 的 分 布 情况 ,以 及 主题 词 在 主 
题 上 的 分 布 情况 , 即 每 个 文档 对 应 一 个 或 多 个 主题 ,每 
个 主题 拥有 多 个 主题 词 ,核心 步 又 "为 : 统计 各 个 文 
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各 让 主题 知识 元 抽取 方法 
二 后 仙 天 放 而 | Sy 
专业 社交 | 主题 情感 分 析 模型 | 医生 
媒体 主题 抽取 | = | 
LDA 挖 气 一 > | IDA 主 题 标 情感 特征 LST 上 | | 入 型 集成 
| LSTM 模型 | 让。 模型 训练 | 
S| | 
一 -> | 主题 合并 | 汪 [ 
下 5# 重 || | 
| 主题 关键 词句 抽取 模型 
4 ! 
| Word2Vec | 型 验 i 
Ee ek 主题 相似 度 上 关键 阅 名 人 
本 | 重 权重 
a 


1 主题 知识 元 的 抽取 方法 研究 框架 


档 各 个 词 的 主题 ,得 到 文档 主题 分 布 0( 见 公式 (1))， 
统计 语料库 中 各 个 主题 词 的 分 布 ,得 到 LDA 主题 中 主 
题 通 的 分 布 p( 见 公式 (2) ) 。 


人 
ni it Qo, 


一 Pm, ~ 公式 (1) 
®@}) 0 Sx (n +aw ) 公 工 

< 十 党 m,—i 了 

< 十 一 ni; + %, 公式 (2) 
2 人 

所 


一 公式 (1) (2) 中 ,为 主题 的 个 数 ;a 为 g。 分布 的 
趋 参数 ,表示 主体 之 间 的 相对 强 弱 ,是 一 个 K 维 向 量 ， 
中 时 a 的 第 个 元 素 ;n 为 94 分 布 的 超 参数 ,是 一 个 7 
纵向 量 ,7 为 词典 大 小 。 公 式 (1) 中 的 世 _, 是 第 nn 篇 
庆 剖 中 分 配 到 主题 的 单词 个 数 ,不 包含 当前 单词 i, 
公 起 (2) 中 心 ,是 第 k 个 主题 中 分 配 到 单词 + 的 数 ,不 
人 包 答 当前 单词 ;。 

开 主 题 分 布 g 中 选取 分 布 最 高 前 个 主题 作为 初始 
主题 列表 7, , 主题 词 的 分 布 p 中 每 个 主题 所 对 应 的 分 
Re 
3.2.2 ”主题 去 重 ”LDA 抽取 得 到 的 主题 中 会 出 现 主 
题 重复 . 宛 余 的 情况 ,本 文 在 得 到 初始 主题 列表 7, 后 ， 
通过 计算 主题 相似 度 的 方法 ,进行 主题 去 重 ,得 到 语 料 
库 刀 的 主题 列表 7。 


进行 合并 ,得 到 主题 列表 7。 

在 主题 去 重 后 ,主题 分 布 更 加 合理 ,人 工 命名 主题 的 
工作 量 会 相应 减少 ,从 而 提高 抽取 速度 与 质量 ,最 终 抽取 
出 属于 语料库 DD 的 主题 列表 了 以 及 相应 的 主题 词 i。 
3.3 ”主题 情感 分 析 模 型 

了 解 用 户 对 文本 中 主题 上 的 情感 倾向 ,是 知识 元 
抽取 的 关键 任务 之 一 ,针对 专业 社交 媒体 文本 ,该 任务 
能 够 帮助 知识 使 用 者 了 解 用 户 需求 .量化 用 户 评价 
等 。 本 文 在 LDA 模型 抽取 主题 的 基础 上 ,采用 
LSTM 模型 计算 用 户 发 表 文本 (帖子 ) 的 情感 倾向 。 由 
于 模型 自身 的 递归 特性 '” ,本 文 在 LSTM 模型 的 训练 
过 程 中 ,使 用 主题 标签 与 情感 标签 共同 监督 。 共 同 监 
督 一 方面 能 够 围绕 文本 主题 抽 来 取 情 感 倾向 ; 男 一 方 
面 ,能 够 利用 主题 与 情感 倾向 之 间 的 相关 性 ,提升 情感 
分 析 的 准确 率 。 

3.3.1 主题 与 情感 的 相关 性 在 专业 社交 媒体 中 ,用 
户 发 表 的 言论 是 以 帖子 的 形式 来 表现 的 ,由 于 帖子 文 
本 长 短 不 一 .类别 鱼 龙 混 杂 ,其 情感 属性 难以 把 握 。 然 
而 专业 社交 媒体 中 用 户 的 帖子 一 般 带 有 鲜明 的 主题 ， 
这 些 主题 与 情感 倾向 往往 具有 相关 性 '" ,以 汽车 论坛 
为 例 ,帖子 包含 “ 买 车 晒 车 “故障 与 维修 “配置 对 比 ” 


计算 两 个 主题 是 否 重复 或 元 余 , 需 要 首先 计算 两 
个 主题 的 相似 度 。 抽 取 两 个 主题 的 前 WW 个 词 ,分 别 为 
集合 4 与 集合 ,然后 计算 两 集合 的 Jaccard Similarity ， 
公式 如 下 : 


J(A,B) = 


14NB| 14MBI 
MnBl IAIl+1BI -1ANBI 


公式 (3) 

遍历 主题 列表 7 中 的 主题 ,按照 公式 (3 ) 计算 两 

个 主题 间 的 相似 度 ;将 每 个 主题 对 的 相似 度 J(4,B) 与 
给 定 的 阔 值 (Jaccard Thresh) 相 比较 ,并 记录 下 所 有 大 
于 阔 值 的 主题 对 ,最 后 通过 并 查 集 ( Disjoint -Set ) 方法 


等 主题 。 将 由 LDA 模型 得 到 各 帖子 的 主题 ,与 各 帖子 
的 情感 倾向 进行 相关 性 分 析 后 ,认为 帖子 主题 与 帖子 
所 包含 的 情感 倾向 ,有 较 强 的 相关 性 。 各 主题 下 的 情 
感 倾 向 统计 结果 见 表 1 。 

由 表 1 可 知 , 买 车 晒 车 主题 的 帖子 多 为 正面 情感 ; 
涉及 到 故障 .异常 与 维修 描述 的 帖子 多 为 负面 情感 ;而 
活动 与 社交 帖子 、 其 他 类 别 的 帖子 例如 二 手 交 易 帖 ,大 
多 数 不 具 有 明确 的 情感 倾向 。 从 统计 数据 可 知 ,帖子 
主题 是 一 个 强 相关 变量 ,将 其 输入 LSTM 模型 作为 特 
征 进 行 学 习 , 能 够 一 方面 使 情感 倾向 结果 贴近 帖子 主 
题 , 男 一 方面 到 提升 模型 分 类 效果 的 作用 。 
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表 1 各 主题 下 帖子 的 情感 倾向 统计 
(单位 :条 数 ) 


帖子 目的 性 主题 负面 正面 中 性 合计 
1. 购车 价格 与 程序 182 132 1 248 1 562 
2. 汽 车 配置 对 比 评价 341 451 1 315 2 107 
3. 汽 车 改装 讨论 176 342 1 358 1 876 
4. 汽车 保养 讨论 269 153 126 548 
5. 故障. 异常 与 维修 1 321 84 110 1515 
6. 使 用 求助 105 262 2 026 2 393 
7. 买 车 晒 车 58 703 253 1 014 
8. 轮 载 轮胎 讨论 40 67 336 443 
9. 活动 与 社交 2 9 308 319 
10. 其 他 44 25 154 223 
合计 2 538 2 228 7 234 12 000 


3-2 融合 主题 特征 的 LSTM 情感 分 类 模型 ”本文 


型 ,命名 为 主题 增强 的 LSTM 情感 分 类 模型 
。T-LSTM 的 主要 思想 是 :利用 LSTM 中 各 
障 虐 层 的 递归 性 ,将 LDA 模型 的 主题 词 信息 作为 输入 
席 列 的 后 续 的 时 间 节 点 (Time -step) 输入 模型 ,然后 利 
用 梯 本 在 该 主题 上 的 情感 倾向 标注 进行 训练 ,通过 学 
攻 情 感 倾向 与 主题 信息 的 相关 性 ,提高 输出 该 主题 上 
的 情感 倾向 bp 的 准确 率 。 

ONTILSTM 模型 的 整体 结构 见 图 2, 共 包含 3 层 网 络 ， 
自 忆 到 上 分 别 是 Embedding 层 ,LSTM 层 ( 见 图 3) .MLP 


2 P Output 

mm 

-Co Softmax 

92ooocooD . © MLP 
Teuny Connected Recurrent 
Fully Connected 

DDODODD © Embedding 
Tuny Connected 
园 因 四 … 四 四 因 … Input 


2 TILSTM 网 络 结构 


第 一 层 , 词 人 能 人 层 (Embedding) 。 词 舟 人 层 位 于 整 
个 模型 的 最 底部 ,作用 是 对 经 过 One -hot Vector 处 理 的 
词 向 量 进行 降 维 ,从 而 减少 模型 的 复杂 度 。 词 通信 的 
输出 思 作 为 学 习 模型 8:y 一 z 的 输入 ,已 知 任务 g 中 所 
对 应 z; 值 。 通 过 样本 数据 | (x,z;) i | 训练 得 到 学 习 
模型 :x 一 z, 即 z=g(f(x)) ,该 过 程 中 的 模型 y=f(x) 
即 为 词 伐 入 的 模型 。 
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第 二 层 ,T-LSTM 核心 网 络 层 。 此 处 使 用 了 代表 主 
题 向 量 , 尸 代表 情感 倾向 向 量 , 整 个 LSTM 层 的 输入 是 
不 同时 间 节 点 上 的 词 向 量 (xz 2，…% ) ,以 及 后 续 的 
主题 词 向 量 (7, ,7,,…) ,输出 为 情感 倾向 己 所 对 应 的 
向 量 。 引 入 主题 信息 作为 特征 后 ,LSTM 核心 层 的 结构 
见 图 2。 图 3 中 每 个 节点 代表 一 层 包 含 了 一 个 记忆 块 
的 隐藏 层 ,每 个 记忆 块 的 输入 是 上 一 层 的 输出 与 改 成 
的 输入 , 即 帖 子 文本 层 的 输出 会 作为 主题 特征 层 的 输 
入 ,最 后 的 输出 层 既 包括 文本 信息 又 包括 主题 信息 。 
3 中 权 、 杷 是 输入 与 输出 向 量 的 权重 矩阵 ，W 分 
别 是 情感 倾向 P 在 隐藏 层 之 间 的 权重 和 矩阵。 


Pp 
T-LSTM W, 
OaO 
Wp Wp Wp Wp Wp 
W 有 W, Wi 
| | | 
Xl 人 Xr T; 


3 LSTM 层 的 网 络 结构 


第 三 层 , 多 层 感 知 机 网 络 ( Multi -layer Perception ， 
MLP) 。 将 第 二 层 得 到 的 主题 向 量 与 情感 倾向 向 量 输 
入 到 MLP 层 , MLP 层 输 出 的 向 量 通 过 Softmax 层 得 到 
情感 倾向 标签 的 概率 (已 ) ” ,代表 情感 倾向 ,在 模型 
训练 得 到 的 参数 j 的 条 件 下 ,目标 概率 可 分 别 表述 为 : 


公式 (4) 


p(P, | x,n) = 


De 
公式 (4) 中 为 自然 对 数 底 ,* 向 量 表 示 上 一 隐藏 
层 节 点 输出 的 值 ,( Wi x + 4b ) 代 表 通 过 感知 机 层 权 重 
WW 与 截 距 br 计算 得 到 的 未 归 一 化 的 概率 。 
假定 训练 样本 为 妈 , 模 型 中 的 节点 数 为 5, 那么 在 
训练 时 定义 损失 函数 为 : 


Lp) = P= xlog p(P | xz) +al( ul )P 


公式 (5) 

公式 (5) 中 P= 放 表 示 如 果 已 =7 成 立 , 则 1 的 
值 为 1, 否 则 为 0;al (lul )1 为 损失 函数 中 的 惩罚 项 ， 
4 为 模型 中 训练 得 到 的 参数 ,a 为 惩罚 系数 , 取 值 在 
[0,1] 之 间 。 

本 模型 的 训练 采用 Adam 算法 "” ,利用 梯度 的 一 
阶 矩 估计 和 二 阶 矩 估计 动态 调整 每 个 参数 的 学 习 率 。 
此 处 使 用 了 Dropout 技术 来 防止 模型 过 拟 合 , 适 的 并 采 
用 mini-batch 的 方法 进行 训练 。 训 练 完成 后 ,对 模型 
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进行 序列 化 保存 ,最 后 利用 该 模型 输出 主题 知识 元 中 
的 情感 倾向 p。 
3.4 ”主题 关键 词句 抽取 模型 

LDA 所 抽取 到 的 主题 是 所 有 文档 层面 得 到 的 全 局 
性 主题 ,对 于 单个 文档 来 说 ,其 自身 的 主题 往往 无 法 与 
LDA 得 到 的 主题 词 一 一 对 应 ,会 出 现 主题 词 宛 余 的 问 
题 。 而 文档 级 别 的 关键 词句 不 同 于 LDA 主题 ,是 对 文 
档 本 身 关键 信息 的 抽取 ,抽取 得 到 的 关键 信息 比 LDA 
主题 词 粒度 更 细 , 且 关键 词 来 源 于 该 文档 本 身 。 本 文 
综合 文档 级 别 关键 词 与 LDA 主题 词 抽取 算法 ,在 不 偏 
离 大 主题 的 前 提 下 ,抽取 文档 关键 词 与 关键 名 ,提供 对 
LDA 主题 以 及 情感 倾向 的 解释 。 因 此 ,本 文 一 方面 合 
用 TextRank 算法 计算 单一 文档 中 词句 的 重要 度 , 考 
虑 交 档 级 别 的 关键 词句 抽取 ; 另 一 方面 使 用 Word2Vec 
算 浅 计算 文档 中 词句 与 文档 主题 词 的 相似 度 , 考 虑 抽 
取得 到 的 关键 词句 在 一 定 程度 上 与 LDA 主题 词 相 一 
玛 污 最 终 ,通过 加 权 的 方法 计算 综合 重要 度 , 从 而 选取 
恒 驳 程度 最 高 的 词 与 句 ,作为 该 帖子 的 关键 词 刀 ,关键 
印 友 。 


基于 TextRank 的 关键 词句 重要 度 计 算 本文 
落 忆 TextRank 来 抽取 帖子 中 的 关键 信息 ,其 基本 思想 
是 :首先 将 文本 分 割 成 若干 组 成 单元 (单词 句子 ) ,之 
导 寞 立 图 模型 ,采用 投票 机 制 对 文本 中 的 成 分 进行 排 
席 22 。 该 算法 的 优势 在 于 不 需要 事先 对 多 篇 文档 进 
入 尘 习 训练 , 仅 基于 单个 文档 的 信息 即 可 完成 关键 词 
的 提取 与 文摘 ,完成 过 程 简洁 有 效 。 
:三 TextRank 模型 的 结构 为 一 个 有 向 有 权 图 C = (V， 
到 CG 幅 点 集合 V 和 边 集合 组 成 ,其 中 下 是 VxV 的 子 
集 。 有 向 图 中 任 两 点 VV 之 间 边 的 权重 为 w;。 对 于 
任意 一 个 给 定 的 点 V,, IN(V,) 表示 指向 该 点 的 点 集 
合 , 0UT(V,) 表示 点 V, 指向 的 点 集合 。 则 点 V 的 得 
分 WS(V,) 定 义 如 下 : 


WS(V)=(1-d) +dx 5 


Ve Dy ovry) Wi We 
公式 (6) 
公式 (6) 中 4 为 阻尼 系数 , 其 取 值 范围 为 0 到 1， 
表示 从 图 中 某 一 特定 点 指向 其 他 任意 点 的 概率 ,默认 
取 值 为 0.85。 上 式 中 WS(V) 是 点 V 的 得 分 ,该 式 通 
过 递归 达 代 的 方式 进行 计算 ,因此 每 个 点 的 得 分 需要 
赋予 一 个 随机 初始 值 。 
关键 词 抽取 的 目标 是 从 给 定 的 文本 中 自动 抽取 出 
若干 有 意义 的 词语 或 词组 。 其 步骤 包括 :中 将 文本 
按照 句子 $; 进行 分 割 ,用 ,表示 句 中 的 词汇 ;@ 构 建 


图 G=(V,E) ,其 中 V 为 包含 了 ,的 集合 ,E 为 利用 共 
现 窗 口 构建 两 点 间 的 边 ;@ 根 据 公 式 (6) ,迭代 计算 各 
节点 权重 ,直至 收敛 ;由 倒序 排序 各 点 权重 ;名 提取 最 
重要 的 Y 个 单词 ,如果 形 成 相 邻 词组 , 则 组 合成 多 词 关 
键 词 。 

同 理 ,在 上 述 步 又 中 ,将 词 替 换 为 句子 ,抽取 得 到 
关键 句 。 

3.4.2 基于 Word2Vec 的 关键 词句 主题 相似 度 计算 
Word2Vec 模型 是 由 谷歌 提出 的 词 向 量 模 型 , 它 尝 试 通 
过 分 析 一 个 词 的 邻 词 (也 称 作 语 境 ) 来 确定 该 词 的 含 
义 。 因 此 通过 训练 Word2Vec 模型 ,能 够 使 用 词 向 量 之 
间 的 距离 来 表示 词语 的 语义 相似 性 。 

本 文通 过 训练 Word2Vec 模型 ,得 到 所 有 语 料 中 的 
词汇 的 词 向 量 , 然 后 利用 词 向 量 ,计算 文本 中 词 、 句 与 
主题 词 的 相似 度 。 词 语 相 似 度 采用 余 强 相似 度 来 计 
算 ,a,b 表示 两 个 词汇 的 词 向 量 : 


o_o 八 环 
A 公式 (7) 


计算 文档 中 每 一 个 词 与 该 文档 的 LDA 主题 中 的 
主题 词 的 相似 度 , 取 最 高 的 主题 词 的 相似 度 作为 该 词 
的 主题 相似 词 相似 度 : 
Bo Min dy 
然后 以 该 贴 单词 集合 为 主体 ,进行 归 一 化 处 理 ,得 
到 单词 的 主题 相似 度 : 


count, * cosO, 


Sim, = 公式 (9) 
加 ke Allyw cosO, 


其 中 ,couni; 代表 单词 i 出现 的 次 数 ,k 是 该 文档 中 
出 现 的 单词 。 

对 于 句子 与 主题 相似 度 的 计算 ,本 文采 用 将 句子 
中 与 主题 词 中 相似 度 最 高 的 mm 个 (默认 值 m=3) 词 相 
似 度 之 和 ,并 根据 文档 所 有 句子 相似 度 之 和 进行 归 一 
化 ,得 到 的 值 作为 句子 的 主题 相似 度 。 
3.4.3 ”加 权 计 算 关 键 词句 重要 度 ”综合 使 用 主题 相 
似 度 与 TextRank 重要 度 ,来 确定 文档 中 词句 的 重要 
度 ,文档 中 每 个 词 的 重要 度 使 用 公式 10 计算 。 

了 =WXSim+(1 —-w)TextRank, 公式 (10) 

其 中 w 代表 主题 相似 度 所 占 的 权重 , 取 值 在 L0， 
1 之 间 ,7TextRank, 表示 该 词 的 TextRank 重要 度 , Sim, 
表示 该 次 的 主题 相似 度 。 同 理 ,文档 中 句子 的 重要 程 
度 也 可 通过 公式 (10) 计 算 。 

最 后 ,将 文档 词汇 与 文档 句子 按照 加 权 的 重要 度 7 
倒序 排列 ,截取 权重 最 高 的 7 了 个 单词 作为 关键 词 ,, 截 
取 权 重 最 高 的 N 个 句子 得 到 关键 句 久 .。 
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4 ”实验 结果 与 分 析 

汽车 产品 是 最 复杂 的 工业 产品 之 一 ,汽车 行业 有 
着 庞大 的 技术 体系 、 多 变 的 市 场 需 求 高昂 的 研发 与 制 
造成 本 ”。 此 外 ,汽车 产品 价值 较 高 ,与 人 们 生活 息 
息 相关 ,是 各 类 工业 产品 中 ,普遍 关注 的 重要 产品 。 因 
此 本 文 以 汽车 论坛 为 例 ,开展 专业 社交 媒体 中 的 主题 
知识 元 抽取 实验 。 
4.1 汽车 文本 拒 取 


重 , 此 处 设置 每 个 主题 取 前 WW=20 个 词 进行 相似 度 计 
算 ,主题 合并 的 相似 度 阔 值 = 0.1, 即 相似 度 超过 0. 1 
的 主题 将 进行 合并 ,得 到 主题 列表 7。 在 运行 去 重 模 
型 后 ,原先 LDA 主题 列表 中 的 20 个 主题 合并 为 10 个 
主题 ,如 表 2 所 示 , 其 中 “主题 ”一列 是 根据 LDA 算法 
得 到 的 分 布 最 高 的 10 个 主题 词 进行 人 工 命名 得 到 的 
主题 名 称 。 


表 2 去 重 后 的 主题 列表 


主题 序号 主题 分 布 最 高 的 10 个 主题 词 


本 文通 过 编写 基于 Serapy 的 疏 虫 程序 , 抓 取 汽车 
之 家 论坛 中 的 汽车 评论 帖子 ,选取 了 10 个 热门 车 型 论 
坛 进 行 仆 取 ,包括 迈腾 论坛 雅 阅 论坛 .凯美瑞 论坛 等， 
拒 取 内 容 包 括 帖子 标题 .正文 内 容 、 配 图 文本 等 信息 ， 
时 间 范 围 为 从 2016 年 9 月 至 2017 年 9 月。 删除 内 容 
为 室 或 5 个 字符 以 下 的 帖子 ,删除 内 容 过 长 的 灌水 帖 ， 
由 党 数 超过 500 字 、 却 只 包含 不 超过 20 个 不 同 字符 的 
帖 壮 。 共 把 取 10 万 余 条 汽车 评论 帖子 。 
GD 文本 主题 抽取 
训练 LDA 模型 并 输出 主题 列表 ”本 文采 用 
) 中 “Topic Modeling with Latent Dirichlet Alloca- 
i 全 5 库 ,实现 3.2.1 节 中 所 描述 的 算法 过 程 。 首 先 对 
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帖 圭 进行 预 处 理 ,去 除 常用 词 ` 地 名 、 品 牌 等 名 词 。 然 
导 和 异 型 的 参数 进行 选择 ,主题 个 数 玉 = 20 , 狄 利克 旬 
分 大 超 参数 a = 0.1, 7 = 0. 01 ,和 迭代 次 数 iterations = 
90< 并 使 用 预 处 理 后 的 帖子 训练 LDA 模型 后 ,得 到 初 
f 王 题 列表 7,。 在 通过 LDA 获得 主题 列表 7, 后 ,对 
其 中 每 个 主题 下 的 主题 词 进行 同义词 合并 、 无 意义 词 
别 除 的 处 理 ,例如 ,发 动机 .引擎 合并 为 发 动机 ,轮胎 、 
车 甩 合 并 为 轮胎 等 。 然 后 根据 3.2.2 节 中 的 主题 去 


由 


亚 


fk 


> 


1 购车 价格 与 程序 。 优惠 、 销 售 、 贷 款 \ 价 格 、 提 车 落地、 购置 税 、 
保险 . 订 车 ,加价 

2 汽车 对 比 评价 配置 动力 .运动 油耗, 空间、 变速 箱 、 后 排 、 
内 饰 落地、 安全 

3 汽车 改装 讨论 改装 .导航 .影像 .大 灯 、 升 级 轮 载 、、 安 装 、 
4 汽车 保养 讨论 机 油 、 保 养 、 美 孚 、 机 滤 清洗 .滤芯 ,节气 门 、 
火花 塞 .防冻 液 .空调 

异 响 声音. 追尾 ` 刹 车 抖动 .问题 .变速 箱 、 


顿挫 熄火、 发 动机 


5 故障 .异常 与 维修 


6 使 用 求助 大 神 .求助 .请教 帮忙、 进来 .告知 .指教 .车 
友 .请 问 .指导 

7 买 车 晒 车 实体 店 、 作 业 、 提 车 \ 版 主 \, 认 证 ,颜色 ,好 看 、 
值 荐 内 饰 系统 

8 轮胎 讨论 轮胎 、 轮 载 、 胎 压 、 影 响 , 备 胎 、 原 三、 补 胎 、 米 
其 林 .定位 .磨损 

9 活动 与 社交 猜 车 活动 , 微 信 、 车 友 会 .咨询 交流. 加入、 
软件 支持 .音乐 

10 其 他 删除 \ 本 楼 、 管 理 员 精华、 领先 .论坛 .自动 、 
占 子 .喜欢 

4.2.2 运用 LDA 模型 输出 各 文档 主题 使 用 已 经 训 


练 完毕 的 LDA 模型 , 反 向 运行 ,输出 每 个 帖子 的 主题 
分 布 ,部 分 文档 获取 的 主题 如 表 3 所 示 , 表 中 展示 了 概 
率 最 高 的 2 个 主题 编号 与 主题 名 称 。 


表 3 各 帖子 抽取 得 到 的 主题 展示 


帖子 序号 帖子 名 称 主题 1 主题 2 
1 一 汽 大 众 迈腾 B7L 发 动机 设计 缺陷 导致 项 气门 5. 故障 .异常 与 维修 2. 汽车 对 比 评价 
2 第 一 次 和 迈腾 B8 的 亲密 接触 2. 汽车 对 比 评价 7. 买 车 晒 车 
3 B7 迈腾 近 四 年 ,些许 问题 请 教 老 司机 ~ 6. 使 用 求助 4. 汽车 保养 讨论 
4 【 吃 胎 更 新 ] 一 代 18000 公里 车 况 解说 8. 轮胎 讨论 4. 汽车 保养 讨论 
5 别人 都 提 新 款 了 ,我 提 老 款 1.8 舒适 7. 买 车 晒 车 1. 购车 价格 与 程序 


共 12 000 帖 加 a a 


4.3 主题 情感 抽取 

本 文 同时 使 用 T-LSTM 模型 LSTM 模型 与 SVM 模 
型 进行 情感 分 析 实 验 , 并 对 实验 结果 进行 对 比分 析 。 
4.3.1 人 工 标注 数据 集 采用 T-LSTM 模型 进行 情感 
分 析 , 需 要 高 质量 标注 的 主题 情感 倾向 标签 ,这 些 标签 
应 该 围绕 文本 本 身 的 主题 进行 标注 。 


106 


本 文 在 语料库 中 选取 12 000 篇 帖子 ,然后 使 用 
LDA 模型 提取 每 篇 帖子 的 主题 ,主题 属于 上 述 主题 列 
表 中 的 10 类 主题 。 然 后 组 建 8 人 标注 小 组 ,依据 该 文 
本 主题 相关 的 情感 倾向 进行 分 工 标注 。 此 外 ,为 了 保 
障 标注 质量 ,标注 工作 将 进行 交叉 校 验 , 即 每 篇 帖子 会 
有 2 人 进行 交叉 标注 ,对 标注 结果 不 同 的 帖子 重新 进 


林 杰 ,， 苗 润 生 , 张振宇 . 专业 社交 媒体 中 的 主题 知识 元 抽取 方法 研究 [Jj. 图 书 情报 工作 ,2019 ,63(14) :101 - 110. 
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行 标注 。 具 体 标签 的 数量 分 布 见 表 1。 将 帖子 按照 2: 
1 的 比例 划分 为 训练 集 与 测试 集 ,分 别 为 8 000 篇 与 
4 000 篇 。 

4.3.2 ”模型 超 参 数 选取 ”采用 训练 集 的 5 倍 交 叉 验 
证 (5 -fold Cross -Validation ) 来 选取 模型 的 超 参 数 , 所 
选 出 的 超 参数 也 将 用 于 下 面 的 实验 。 其 中 T-LSTM 模 
型 与 LSTM 模型 选取 相同 的 超 参数 ,其 中 词典 的 数量 w 
的 取 值 范围 为 (5 000,20 000) ,搜索 间隔 为 1000; 词 向 
量 的 维度 d 取 值 范围 为 (50,200) ,搜索 间隔 为 10; 
LSTM 隐藏 节点 数 (100 ,1 000) ,搜索 间隔 为 100, 漏 
码 率 dropout, 记 为 drpt 取 值 为 (0.5,0.9) 搜 索 间隔 为 
0.1 ;为 减少 模型 计算 复杂 度 ,MLP 的 隐藏 层 数 为 1, 隐 
藏 层 节点 五, 的 取 值 范围 为 (50,200)。 采 用 网 格 搜索 
(Grid Search) 方 法 选择 使 得 平均 准确 率 最 优 的 一 组 ， 
该 级 数据 见 表 4。 此 外 ,SVM 模型 的 正则 化 常数 C 取 
依 为 1.0。 


< 表 4 TISTM 超 参 数 取 值 说 明 
CC 参数 参数 说 明 


参数 值 

I 词 的 数量 12 000 
OO! 词 向 量 维度 128 
ae LSTM 隐藏 节点 数 200 
漏 码 率 dropout 0.8 
MIP 隐藏 节点 数 160 


4.338 ”实验 结果 分 析 “该 实验 是 三 分 类 问题 ,在 包含 
4 990 篇 帖子 的 测试 集中 ,正面 “负面 "以 及 “中 性 " 标 
符合 数量 分 别 为 845 .743 .2 412。 在 训练 过 程 中 使 用 了 
不 同样 本 数 的 训练 集 ,其 效果 见 图 4, 可 见 在 训练 集 大 小 
为 ?RD00 时 ,TLSTM 的 效果 开始 优 于 ISTM 与 SVM。 由 
于 T-LSTM 模型 的 复杂 度 高 于 其 他 两 个 模型 ,因此 在 训 
练 集 足 够 大 时 有 相对 优势 。 根 据 图 4 可 知 ,在 训练 集 大 
小 为 8 000 时 ,TILSTM LSTM 与 SVM 在 测试 集 上 的 准确 
率 分 别 为 84.9% .82.6% 与 80.4% 。T-LSTM 相 比 LSTM 
与 SVM ,正确 率 分 别提 高 了 额 2.3% 与 4.2% 。 

表 5、 表 6、 表 7 分 别 是 LSTM SVM 、T-LSTM 模型 
在 测试 集 上 的 混淆 矩阵 ,其 中 标签 “0”“1”“2” 分 别 代 
表 " 正 面 ”“ 负 面 ”中 性 ” ,其 实际 数量 分 别 为 845、 
743 .2 412。 通 过 混淆 矩阵 能 够 清晰 地 了 解 各 模型 巴 
测 正确 与 错误 的 情况 。 相 比 之 下 ,T-LSTM 模型 混淆 矩 
阵 中 ,标签 “0”“1”“2” 下 ,预测 正确 的 数量 分 别 为 
621 .591 .2 161 , 均 高 于 其 他 两 个 模型 相应 标签 预测 正 
确 的 数量 。 

根据 上 述 分 析 可 知 ,T-LSTM 模型 在 融入 主题 特征 
以 及 改进 LSTM 结构 的 情况 下 ,在 样本 集 充足 的 情况 


下 ,能够 发 挥 LSTM 模型 处 理 序列 数据 的 优点 ,同时 通 
过 将 主题 信息 输入 模型 ,提高 了 帖子 在 主题 方向 上 情 


感 分 析 的 准确 率 。 
0.85 
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图 4 不 同样 本 数 训练 集 下 的 模型 准确 率 


表 5 LSTM 模型 混淆 矩阵 


本 预测 值 
人 合计 
0 1 2 
实际 值 0 589 74 182 845 
1 36 572 135 743 
a 154 115 2 143 2 412 
合计 779 761 2 460 4 000 


表 6 SVM 模型 混淆 矩阵 
预测 值 


频数 合计 
0 1 2 
实际 值 0 585 74 186 845 
1 57 557 129 743 
2 153 185 2 074 2 412 
合计 795 816 2 389 4 000 


表 7 TILSTM 混淆 矩阵 


本 预测 值 | 
频数 合计 
0 1 2 
实际 值 0 621 32 192 845 
1 35 591 117 743 
2 132 119 2 161 2 412 
合计 788 742 2 470 4 000 


4.4 主题 关键 词句 抽取 

主题 关键 词句 的 抽取 将 以 两 篇 帖子 为 例 ( 帖子 内 
容 可 见 表 8 中 帖子 1 与 帖子 2) ,展示 关键 词句 抽取 的 
过 程 与 结果 。 
4.4.1 TextRank 重要 度 计算 与 Word2Vec 主题 相似 度 
计算 TextRank 重要 度 计算 :通过 编写 Python 程序 , 按 
照 3.4.1 节 中 的 算法 ,对 样本 汽车 帖子 文本 进行 实验 ， 
模型 中 参数 共 现 窗口 长 度 K=6 ,关键 词 个 数 了 =20 , 关 
键 词 最 小 出 现 次 数 为 1。 基于 TextRank 的 关键 词 计 算 


结果 见 表 9 ,关键 句 计 算 结果 见 表 10。 
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表 8 主题 知识 元 抽取 结果 


帖子 帖子 标题 h 帖子 内 容 c 输出 
帖子 1 一 汽 大 众 迈 腾 ” 大 众 迈 腾 2013 年 8 月 2 号 购买 ! 行驶 48 000 公里 ,昨天 下 班 正 文本 主题 t 5. 故障 、 异 常 与 维修 
B7L 发 动机 设 。 常 开车 ,突然 车 剧烈 拉动 ,失去 动力 烽火 ,之 后 无 法 启动 ,还 好 当 情感 倾向 2 负面 
计 缺 陷 导致 项 ”时 路 上 车 不 多 ,如 果 是 在 快速 路 高 速 公 路 , 那 后 果 不 堪 设想 ,车 a | 
气 站 辆 拖 走 , 经 检查 由 于 张 紧 器 问题 , 正 时 链条 跳 澳 ,导致 项 气门 ! 关键 问 kv 问题 ,发 动机 .拉动 异 响 无 法 
致电 厂家 400 以 已 经 过 保 为 由 拒绝 一 切 赔偿 ,将 近 30 万 的 车 ， 关键 句 ks 行驶 48000 公里 ,昨天 下 班 正常 开车 ,突然 
跑 了 3 年 4.8 万 公里 出 此 问题 ,车 辆 质量 上 有 严重 问题 ,不 能 车 剧烈 抖动 ,失去 动力 熄火 ,之 后 无 法 启动 ， 
为 厂家 产品 设计 问题 ,过 保 就 要 用 户 自 己 买单 。 我 不 是 黑 大 众 ， 还 好 当时 路 上 车 不 多 ,如 果 是 在 快速 路 高 
大 众 实在 是 太 让 人 伤心 了 ,完全 不 顾 用 户 安全 , 烧 机 油 我 忍 了 ， 速 公路 , 那 后 果 不 堪 设 想 , 车 辆 拖 走 , 经 检查 
变速 条 我 忍 了 , 异 响 我 忍 了 ,在 长 春 冬 季 后 车 门 无 法 打开 我 妨 日 于 张 紧 器 问题 , 正 时 链条 跳 齿 ,导致 顶 气 
了 ,这 回 又 来 发 动机 ,大 众 啊 ,迈腾 啊 , 你 真 此 乃 神 车 啊 ! 我 服 ] 
了 , 真 的 服 了 , 开 了 几 年 我 基本 都 快 会 修 车 了 。 以 上 和 句 句 属实 。 
帖子 2 ”第 一 次 和 迈腾 同事 要 买 车 ,下 班 赖 在 我 车 上 ,要 坐 我 载 他 去 看 车 。 也 真是 没 文本 主题 t 2. 汽 车 对 比 评价 外 
B8 的 亲密 接触 。 有 办 法 了 , 冲 着 他 说 的 请 客 吃 晚饭 就 障 他 跑 一 跑 吧 。 抓 紧 时 间 情感 倾向 m 工 正面 
把 这 三 家 店 跑 了 一 圈 。 同 事 在 考 虑 英 朗 速腾 、 宝 来 .朗逸 和 凌 人 
渡 这 几 个 车 , 依 我 看 肯定 速腾 和 凌 渡 这 两 个 好 点 ,看 起 来 档次 关键 词 k 内 饰 ,落地 ,同事 ,空间 ,后 排 
都 不 一 样 。 这 一 圈 逛 下 来 我 最 感 兴趣 的 车 就 新 迈腾 ,这 车 上 市 
很 久 了 ,我 这 还 是 第 一 次 零 距 离 跟 它 接触 。 车 子 外 观 空间 都 不 
错 ,给 外 观点 赞 ,尤其 内 饰 给 我 的 感觉 很 好 , 坐 进 车 里 第 一 感 就 es 展厅 摆 的 是 330 豪华 型 的 迈腾 ,落地 不 到 三 
是 精致 加 豪华 。 展 厅 摆 的 是 330 豪华 型 的 迈腾 ,落地 不 到 三 十 关键 句 ks 上 万 ,内 饰 的 整体 表现 绝对 符合 这 个 价位 。 
万 ,内 饰 的 整体 表现 绝对 符合 这 个 价位 。 多 处 用 的 是 软 性 材 


质 , 摸 上 去 质感 不 错 ,真皮 座 椅 柔软 手感 好 。 


表 9 关键 词 的 TextRank 重要 度 展示 


词 1 词 2 词 3 词 4 词 5 
问 是 无 法 如 用 户 。 发 动机 
0.029 0.024 0.022 0.021 0.019 
词 1 词 2 词 3 词 4 词 5 
内 饰 同事 看 落地 质感 
0.031 0.019 0.018 0.017 0.013 
表 10 关键 名 的 TextRank 重要 度 展示 
句 1 句 2 
冶 洒 行驶 48 000 公里 ,昨天 下 班 正 我 服 了 , 真 的 服 了 , 开 了 几 年 我 
于 常 开车 ,突然 车 剧烈 拌 动 …… 基本 都 快 会 修 车 了 。 
重要 度 0.204 0. 189 
帖 2 名 1 句 2 
词语 “展厅 摆 的 是 330 豪华 型 的 迈腾 ，” 没有 试 驾 , 也 就 随便 这 么 一 看 ， 
落地 不 到 三 十 万 …… 不 过 对 迈腾 的 …… 
重要 度 0.109 0.106 


Word2Vec 主题 相似 度 计算 :本 文采 用 Python 中 
Gensim 库 训 练 Word2Vec 模型 ,设置 模型 训练 参数 词 


i”, 其 主题 词 包括 :“ 配置 动力 .运动 .油耗 ,空间 、 
变速 箱 、 后 排 . 内 饰 、. 后 排 、 安 全 ”。 帖 子 1 中 "抖动 ” 
“ 异 响 “问题 "“ 变 速 箱 ”“ 发 动机 ”等 词 在 本 帖子 
LDA 主题 词 也 出 现 ,因此 其 主题 相似 度 更 高 , 同 理 可 
得 帖子 2 的 结果 。 基 于 Word2Vec 的 关键 词 主题 相似 
度 结果 见 表 11 ,关键 句 主题 相似 度 结果 见 表 12 。 

表 11 关键 词 的 Word2Vec 主题 相似 度 展示 


本 1 闻 1 词 2 词 3 词 4 词 5 

词语 拉动 噶 响 问题 。 ”变速 箱 ”发 动机 
相似 度 0.025 0.025 0.013 0.013 0.007 

2 闻 1 词 2 词 3 词 4 词 5 

词语 。 空间 内 饰 。 后 排 ”外 观 ”落地 
相似 度 0. 022 0.019 0.019 0.019 0.013 


表 12 关键 名 的 Word2Vec 主题 相似 度 展示 


向 量 的 维度 size = 100 ,学 习 率 alpha =0.05, 词 最 低频 
率 mincount =3 ,训练 的 窗口 大 小 window =5 ,将 12 余 
万 篇 帖子 分 词 后 输入 模型 ,训练 后 得 到 所 有 词汇 的 词 
向 量 。 然 后 ,获取 每 篇 帖子 的 LDA 主题 ,根据 3. 4.2 
节 中 的 方法 计算 帖子 中 词语 的 主题 相似 度 。 例 如 , 帖 
子 1 的 主题 为 :“5. 故障 、 异 常 与 维修 ” ,其 主题 词 包 
括 :“ 异 响 、 声 音 、 拌 动 、 追 尾 、 和 刹车、 问题 ,变速 箱 、 顿 


挫 、 炸 火 、 发 动机 ”; 帖 子 2 的 主题 为 :“2. 汽车 对 比 评 


108 


| 词 1 词 2 
词语 ”我 不 是 黑 大 众 , 大 众 实在 是 太 让 ”行驶 480 00 公里 ,昨天 下 班 正 
人 伤心 了 ,完全 不 顾 …… 常 开车 ,突然 车 剧烈 拌 动 …… 
相似 度 O0221 0. 149 
汪 2 词 1 词 2 
词语 ”车子 外 观 空间 都 不 错 ,给 外 观点 ”展厅 摆 的 是 330 豪华 型 的 迈腾 ， 
赞 ,尤其 内 饰 给 我 的 ……… 落地 不 到 三 十 万 ……… 
相似 度 0. 137 0. 125 
4.4.2 重要 度 加 权 计 算 在 TextRank 重要 度 与 


Word2Vec 主题 相似 度 计 算 的 基础 上 ,根据 公式 10 计 
算 加 权 的 关键 词句 重要 度 ,其 中 主题 相似 度 权 重 w 设 
为 0.5 ,关键 词 .关键 名 的 计算 结果 分 别 见 表 12 与 表 
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表 13 中 ,帖子 1 中 的 加 权 关 键 词 为 "问题 ”“ 发动 
机 ”“ 拌 动 “ 异 响 ”“ 无 法 ” , 相 比 单独 使 用 两 种 方法 ， 
“问题 ”与 “发 动机 ”两 词 的 权重 弄 增 加 ,“ 拌 动 ”与 “ 异 
响 ” 两 个 主题 相似 度 高 的 词 入 选 为 关键 词 ,与 表 8 对 
比 ,其 针对 帖子 1 内 容 的 入 选 关 键 词 更 加 合理 。 帖 子 2 
中 的 在 加 权 计 算 后 ,高 主题 相似 度 的 “空间 “内 饰 ” 
“落地 ”入 选 关 键 词 ,“ 看 ”与 “质感 "被 排除 ,与 表 8 对 
比 ,其 关键 词 更 加 贴近 帖子 2 的 主题 。 

表 13 ”加 权 的 关键 词 重要 度 展示 


帖 1 词 1 词 2 词 3 词 4 词 5 
词语 问题 发 动机 抖动 异 响 无 法 
重要 度 0.021 0.013 0.013 0.013 0.012 
村 是 2 词 1 词 2 词 3 词 4 词 5 
， 内 饰 落地 空间 同事 后 排 
0. 025 0.015 0.011 0.009 0.009 


终 , 输 入 单个 文本 标题 与 本 文 内 容 ,输出 结构 化 的 主题 
知识 元 。 该 API 实现 了 从 本 文 标题 h、 本 文 内 容 c、 主 
题 列表 TT 到 主题 知识 元 的 映射 , 即 f: (h,c,7T) 一 (hh,e， 
t,p,k, ,hk,)o 

通过 调用 上 述 API, 能 够 将 非 结 构 化 的 文本 转换 
为 结构 化 的 主题 知识 元 ,示例 输出 结果 见 表 8 ,其 中 文 
本 主题 1 与 关键 句 取 Top 1 条 ;关键 词 , 取 Top 5 
条 。 最 后 ,抽取 2 000 条 文本 调用 该 模型 API 进行 人 工 
校 验 ,抽取 合格 的 主题 知识 元 的 数量 为 1 382 条 ,抽取 
的 主题 知识 元 合格 率 为 69. 1% ,其 中 主题 知识 元 抽取 
合格 ,是 指 该 主题 知识 元 中 所 有 元 素 均 抽取 正确 , 即 文 
本 主题 情感 倾向 .关键 词 与 关键 句 元 素 均 抽取 正确 时 
才 视 为 抽取 合格 。 

经 过 上 述 实验 分 析 可 得 ,本 文 提出 的 结构 为 “文本 
标题 ,文本 内 容 \ 文 本 主题 .主题 情感 倾向 .主题 关键 
词 .主题 关键 句 ” 的 主题 知识 元 ,其 内 容 相 较 于 已 有 文 


关键 句 抽取 使 用 基于 Word2Vec 的 主题 相似 度 算 
TextRank 算法 ,加 权 计 算 每 篇 帖子 中 的 关键 句 的 
吉 果 见 表 14。 

表 14 ”加权 的 关键 句 重要 度 展示 


句 1 句 2 
放行 驶 48 000 公里 ,昨天 下 班 正 ”我 不 是 黑 大 众 ,大 众 实在 是 太 让 
NJ 常 开车 ,突然 车 剧烈 拌 动 …… 人 伤心 了 ,完全 不 顾 …… 
0.176 0.110 
句 1 句 2 


请 章 ”展厅 摆 的 是 330 豪华 型 的 迈腾 ，，” 车 子 外 观 空间 都 不 错 , 给 外 观点 
和 = 落地 不 到 三 十 万 …… 赞 ,尤其 内 饰 给 我 的 …… 
0.115 0. 069 


通过 上 述 流程 ,对 语料库 中 所 有 帖子 进行 关键 词 
句 抽 取 , 随 机 选择 其 中 2 000 篇 帖子 进行 人 工 校 验 ,使 
用 单一 TextRank 进行 抽取 的 关键 词句 合格 条 数 为 
1 402 条 ,合格 率 为 70. 1% ;融合 主题 相似 度 的 加 权 算 
法 抽取 到 的 关键 词 与 关键 句 通 过 检验 的 数量 为 1 562 
条 ,合格 率 为 78.1% ,合格 率 提高 8% 。 
4.5 主题 知识 元 抽取 模型 集成 

将 文本 主题 i、 情感 倾向 p、 关 键 词 ,、 关 键 句 的 
抽取 方法 进行 集成 ,使 用 集成 模型 将 语 料 转 换 为 结构 
化 的 主题 知识 元 进行 储存 ,以 便于 在 产品 创新 时 对 所 
需 知 识 进行 检索 与 使 用 。 

首先 ,初始 化 集成 模型 ,将 文本 语料库 D 输入 
LDA 与 LSTM 模型 进行 训练 ,得 到 训练 完成 的 模型 文 
件 。 然 后 ,编写 API 接口 程序 来 加 载 LDA 与 LSTM 的 
模型 文件 .输出 模型 结果 实现 关键 词句 抽取 过 程 。 最 


献 更 加 丰富 ;在 主题 抽取 方面 ,有 效 地 去 除了 元 余 主 
题 ,并 为 知识 元 的 其 他 元 素 抽取 提供 支撑 ;在 主题 情感 
分 析 方 面 ,由 于 加 入 了 主题 特征 作为 输入 , 相 较 于 单一 
LSTM 模型 ,准确 率 提 高 了 2. 3% ;在 关键 词句 方面 , 采 
了 主题 相似 度 加 权 的 抽取 方法 , 相 比 单一 的 Tex- 
tRank 算法 ,其 合格 率 提升 8% ,同时 使 抽取 的 关键 词 
更 加 贴近 文本 主题 。 上 述 各 实验 结果 表明 了 本 文 构 
建 的 主题 知识 元 抽取 方法 是 一 种 高 质量 的 抽取 方法 。 


5 总 结 与 建议 


本 文 提出 了 一 种 针对 专业 社交 媒体 的 主题 知识 元 
抽取 方法 。 首 先 通 过 LDA 模型 提取 出 专业 社交 媒体 
中 文本 的 主题 ,并 对 主题 进行 聚 类 与 去 重 ,形成 主题 列 
表 。 其 次 ,通过 融合 文本 主题 构建 了 适用 于 专业 社交 
媒体 本 文 的 T-LSTM 模型 。 然 后 ,融合 TextRank 算法 
与 主题 相似 度 算 法 对 文本 中 的 关键 词 与 关键 句 进行 抽 
取 , 用 于 对 主题 与 情感 倾向 的 解释 与 补充 。 最 后 ,对 上 
述 模型 进行 封装 ,通过 封装 程序 将 帖子 文本 转换 为 主 
题 知 识 元 ,形成 了 完整 的 主题 知识 元 抽取 方案 。 

本 文 提 出 的 模型 能 够 较 好 的 适应 专业 社交 媒体 论 
坛 的 文本 特性 ,在 主题 提取 方面 进一步 降低 了 主题 的 
元 杂 程度 ;在 主题 情感 分 析 方 面 ,围绕 文本 主题 进行 情 
感 分 析 ,提高 了 情感 倾向 分 类 的 准确 率 ; 在 关键 词句 方 
面 ,抽取 得 到 的 关键 词句 更 加 贴近 文本 主题 。 本 文 构 
建 了 完整 的 系统 的 汽车 社交 媒体 主题 知识 元 的 抽取 
方案 ,经 过 实验 验证 ,抽取 的 主题 知识 元 准确 率 到 达 
69.1% 。 此 外 ,将 深度 学 习 与 传统 语义 分 析 技 术 相 结 
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Research on Extraction Methods of Topic Knowledge Tuples in Professional Social Media 
= Lin jie Miao Runsheng Zhang Zhenyu 

= School of Economics and Management, Tongji University, Shanghai 200092 
OAbstract: [ Purpose/ significance | Topic knowledge tuple is a knowledge unit for operating and managing knowl- 
edge oriented to knowledge themes. Accurately extracting topic knowledge tuples facilitates the storage, expression and re- 
trieval of knowledge, and realizes knowledge creation and knowledge evaluation in the process of using knowledge. There- 
fore, this article discusses the existing extraction methods and then, by taking car products as an example, comes up with 
a method of extracting topic knowledge tuples from professional social media. | Method/process | First of all, this paper 
extracted a theme list from the users ”comments in car forums with the LDA model. Secondly, based on the deep learning 
model T-LSTM which integrated thematic features, a sentiment analysis model suitable for the corpus of users in car forums 
was built. Then, by calculating the importance of each word in the TextRank diagram model and the similarity of each 
word s Word2Vec topic, we extracted key words and key sentences for the purpose of interpreting the extracted theme and 
sentiment orientation. Finally, the above methods were encapsulated into an integrated topic knowledge tuple extraction 
method. [ Result/conclusion | In the experimental results, the qualification rate of extracted topic knowledge tuples rea- 
ches 69.1%. Experimental results show that the proposed method in this paper is capable of refining and extracting each 
element of knowledge tuples around the topic, meanwhile it can transforms unstructured information into structural knowl]- 
edge. 

Keywords: topic knowledge tuple topic model Long short-term memory (LSTM) sentiment analysis 
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